COMPARING FEATURE SETS FOR ACTED AND SPONTANEOUS SPEECH IN VIEW OF AUTOMATIC EMOTION RECOGNITION

Author:Thurid Vogt (Augsburg University, Germany Multimedia concepts and applications), Elisabeth Andre (Bielefeld University, Germany Applied Computer Science)

ABSTRACT

我々は音響的感情認識の特徴量選択におけるデータマイニング実験を示す。 ピッチ、エネルギー, MFCC 時間系列 に由来する 1000 個以上の特徴量から始め、 相関の高い特徴量を排除することで,このセットの中からデータに対し関連の高いものを選択した。 特徴量は演技音声、あるいは実際の感情を含む音声別に解析され、有意差が確認された。 全ての特徴量は自動的に計算され、自動で解析したものと手動で解析したものを比較した。 自動化の程度が高いものでも、認識精度の観点からでは、特に不利になることは無かった。

  • This work was partially funded by a grant from the DFG in the graduate program 256 and by the EU Network of Excellence Humaine.

1.INTRODUCTION

音声から感情を認識するための多くの特徴量が発見されている。 しかし、一般に認められる一定の特徴量セットは未だ決まっていない。 我われはデータマイニングを行い、データのピッチ、エネルギー、MFCC 時系列における異なった視点を提供する音響特徴量の大規模なセットを計算した。 続いて、与えられたデータセットから最もよいサブセットを自動的に選択した。 このアプローチは音声感情認識の領域では一般的なものである [1] [2] [3] 。 しかし、既存研究は数百程度の特徴量を使用しているのに対し、我われは 1000 個以上の特徴量から試行を開始した。

将来のオンライン感情認識の観点から、以下の疑問に対する解答を考察する。

  • 特徴量選択に対し、大規模な特徴量を与えることは選択される特徴量を良いものにすることができるのか?

  • どの程度の自動化が可能なのか?
    • つまり、オンラインシステム上でどの解析ユニットと特徴量が、自動的に計算可能で良い結果を残すのか ?
  • 演技あるいは実際の感情を比較した実験はあるが [2] [3] 特徴量セットに対してのものではない。
    • そのため、両方の性質が異なる際にどのような特徴量セットが最適となるのかが分からない。

次章では音声信号からの特徴量抽出の段階を説明する。 続いて、実験を行ったデータベースに関して説明し、最後に実験結果を示す。

2.FEATURE EXTRACTION

音声感情認識に対する言語学の領域で一般に使用される韻律的な特徴量はピッチ、エネルギー、 MFCC (Mel Frequency Cepstral Coefficients), ポーズ、 持続時間、 そして話速とフォルマント、声質である(e.g. [1] , [2] , [3] )。 特徴量は与えられた時間的セグメントにおけるこれらの計測値から求められた。 我々のアプローチでは多数の特徴量を計算し、特定のアプリケーションに最も関係するものを選択する。 このコンセプトは他の研究でもよく使われるものだが、本研究ではより網羅的に行う。 100 - 200 の特徴量から選択を行うのではなく、 約 1300 個の特徴量から試行を開始した。

特徴量抽出のプロセスは 3 つのステップに分けられる. セグメントの長さを選択し、それらのセグメントにおける特徴量を計算し、その後最も相関の高い特徴量セットを削減していく。 これらのステップに関して、以後詳細を述べる。

2.1. Segment length

信号のピッチ或いはエネルギーの値その物は感情に対して意味のあるものではなく、 むしろある時間に対するの特徴量の振舞が意味のあるものである。 そのため、これらの観測地の一般的な統計量、例えば、時間軸上の平均、最小値、最大値を計算した。 従って、実測値の時間軸は統計量を計算するために有効なセグメンテーションが施されている必要がある。 これらの時間セグメントは以下の背反する二つの条件を満す必要があるため、とても注意深く選択された。

  1. 感情の変化はとても早く起きるが、セグメント長が認識の変化の時間分解能を規定する
  2. 利用しやすい統計量はしばしば、長いセグメントが必要になる。

最適なトレードオフを発見するため、我々はいくつかの種類のセグメントを試した。 一つの可能性は例えば 500 ms に固定したセグメント長を利用することだ。 一方、言語学的に動機付けされた、ポーズや発話から規定される、語や文脈を含んだ語、などのセグメントを利用することもできる。 全体的な発話は通常、感情の状態のために非常に特徴的な輪郭を示すが 発話単位でのユーザーの感情の変化を認識できないため、 自然発話でのオンラインな感情認識にとっては実用的ではない。 そのため、多くの言語学的単位は充分であるが、発話セグメンテーションを使用するためには、追加の言語学的な処理プログラムが必要になる。 しかし演技音声のではこのセグメンテーションは通常規定されているため全体的な発話単位を利用でき、 これを利用することで何が可能であるのかの上限としての認識精度を考慮することができる。 単語は暫し数 ms の長さであることもあり、単一のピッチが確定的に推定可能な充分な長さを満たさないことがある。 そのため、我々は、自発感情に対する文脈に含まれる単語や長いポーズによって分類されたセグメント、そして、演技感情に対する反応や語、文脈を含む語、発話、500 ms のセグメントをテストした。 文脈に含まれる語はある語とそれの前後の単語で構成されている。

2.2. Feature calculation

特徴量選択には基本に ピッチ、エネルギー、 MFCC 時間系列を使用した。

ピッチは [4] に記述されているアルゴリズムを使用し、75-600 Hz の範囲の値を 10 ms ごとに 80ms の重複で計算した。 エネルギーと MFCC 12 次元 は音声認識のための ESMERALDA 環境 [5] を利用し観察した。 各値は 10 ms ごとに 16 ms のフレーム長で計算した。 また、 エネルギーと MFCC の最初と二番目の導関数を使用した。

これらの基本系から我われは以下の特徴量列を抽出した。

  • ピッチ: 時間軸に対する最大値、最小値、時間的距離、大きさ、最大値-最小値 間の傾き、最小値-最大値 間の傾き
  • エネルギー: 時間軸に対する最大値、最小値、時間的距離、大きさ、最大値-最小値 間の傾き、最小値-最大値 間の傾き
  • エネルギー係数: 時間軸に対する最大値、最小値
  • MFCC: MFCC 時間軸に対する 12次元全ての平均値と、第一、第二次元における平均値

これらの特長量について、それぞれ 平均、最大値、最小値、最大-最小値間のレンジ、分散、メディアン、第一クォータイル、第三クォータイル、セグメントに対する四分位範囲を計測した ( [1] ). これらの値は特徴量ベクトルを構築する。

更に以下の特徴量を特徴量ベクトルに加えた。 性差の影響を少くするために、ピッチの平均値、メディアン 平均、メディアン、第一クォータイル、第三クォータイルは 最小/最大ピッチを各セグメントごとに以下の式で正規化した。 これは結果的に中央値と四分位数である。

\[mean_{norm} = \frac{mean − min}{max − min}\]

更に、以下の特徴量を加えた。

  • 言語学的に動機づけられたセグメントのアクセント核を近似するために全体のピッチの最大値の位置
  • ピッチやエネルギーの輪郭に対する指標として、セグメント当たりのピッチとエネルギーの最大/最小値の数
  • ポーズに対する大まかな尺度として, あるセグメントの全てのフレーム数に対する音声フレーム数の割合

話速は特徴量ベクトル内で明示的に示してはいないが、エネルギーの最小-最大値間の時間的な距離がそれに対する近似値となる。

特徴量の幾つかは近似的な特徴のみしか持っていないが、 これらの利点は高速に計算可能であることである。 これはオンライン特徴量抽出への応用という側面では重要である。

最終的に、特徴量は合計 1280 個まで集まった。

2.3. Feature selection

最終セクションを記述した特徴量ベクトルは多くの特徴量を含んでおり、それらの多くは冗長なものであるか関連していないものである。 しかし、多すぎる特徴量を計算する目的は最も重要な特徴量をデータが決定できるようにすることである。

データマイニングソフトウェア Weaka [6] を使用し、最適な特徴量のサブセットを探索した。 我われは特徴量の最適なサブセットを発見するために最良優先探索と特徴量評価として, 相関に基づく特徴量選択 (CFS, [7] ) を選択した。

ナイブベイズは特徴量(4章を参照) に高い相関がある場合、パフォーマンスが低下する。 CFS はこれらの属性を正確に排除するためナイブベイズとの相性がよい。 oukann 一般に、特徴量選択はもともとの 1280 個の特徴量から大体 90-160 個まで特徴量を減らした。 上記の結果は、特に特徴選択は、すべてのアプリケーションに対して一度だけ実行される必要があるため、重要であり、多くの分類を高速にする。

3.DATABASES

3.1. Actors database

このデータベースは Technical University, Berlin [8] で収録されたものである. 10 人のプロの声優 (男性:5人, 女性: 5人) は 6 つの異なる感情 (anger, joy, sadness, fear, disgust and boredom) をなるべく自然な感情で演技した 10 回の発話が収録されている。 発話コンテンツは感情的には平静である。 被験者に不自然と認識された収録発話は削除し、 最終的に合計 493 発話が収録されている(女性: 286, 男性: 207)。

元々感情音声の合成のために使用されることを目的としているため、収録は非常に高品質である。 このデータベースは感情発話認識のための比較的単純な仕事であるが、現実的な設定からはかなり遠いものである。

3.2. Wizard-of-Oz database

Wizard-of-Oz (WOZ) 研究由来のデータは台本に従わず被験者が自然に振る舞う現実の生活データにとても近くなる。 我われの特徴量を実際の感情に近づけるため、SmartKom コーパスも評価した。 この WOZ データベースは Munich 大学で、 SmartKom プロジェクト [9] の一環として収録されたものである。 対象者はマルチモーダルな対話システムに興味があり、彼らの感情状態が観察されていることを知らない。 これらの感情は非常に現実的なものであると仮定できるが、不幸にも発話の大部分が感情的に中性のものである。 また、感情のラベルづけは音声及び画像情報を考慮して付与されているもの問題である。 しばしば、これらのラベルづけされた感情は音声信号のみから特定することが困難である。 その結果、このコーパスは演技感情のコーパスより感情推定がとても困難になってしまう。

以下の感情, SmartKom では ‘ユーザー状態’ とされているが, をラベルづけした。

  • strong joy, weak joy, surprise, helplessness, weak anger, strong anger, neutral

感情は非常に不均等な分布をしている。 実際のアプリケーションでも有り得ることだが、自然発話の内 90% はニュートラルな音声であった。

4.EVALUATION

4.1. Classification

クラスタリング のためのツールボックスとして、Weka データマイニングソフトウェアを再度利用した。 ここでは全ての実験は Naive Bayes 法を学習スキームとして利用している。 他のスキームも試したが、観察結果に大きな差はなく、Naive Bayes は高次元データを扱う際に特に高速に計算できる。 そのため、 SmartKom コーパスを利用する場合など唯一つのクラスを持つインスタンスが大多数の時でも満足のいくパフォーマンスになった。 これは分類器を一定にしたまま特徴量抽出のテストを行いたいという我われの要求を満す。

4.2. Results

4.2.1. Acted emotions:

演技感情は以下の 4 つの異なる方法で評価した。

  • 感情: 7種類 (anger vs. joy vs. sadness vs. fear vs. disgust vs. boredom vs. neutral)
  • 評価値: 3種類 (anger/sadness/fear/disgust/boredom vs. neutral vs. joy)
  • 活性度: 3種類 (anger/joy/fear/disgust vs. neutral vs. boredom/sadness)
  • 感情を含んでいるか: 2種類 (anger/joy/sadness/fear/disgust/boredom vs. neutral)

与えれられた全ての発話に対し 10 回のクロスバリデーションを行い、クラス単位の認識精度をを観察した。

表1 にセグメントとして全ての発話を使用した 4 種類の条件をフルセットと縮小セットで比較した認識結果を示す。 縮小特徴量セットは平均して 6.4 % 精度が改善した。 加えて、縮小特徴量セットの分類は早く修了する。

表2 に7つ全ての感情に対する縮小特徴量セットを利用した異なるセグメントの長さの結果を示す。 セグメントの長さが短くなるとき認識精度が大きく減少することが観測された。 全ての結果はチャンスレベルを上回るものであったが、 アプリケーションの利便性の観点から結果をみると、 文脈を含む語の結果のみが有効なものであった。

Table 1. Comparing the full feature set with the reduced feature set.
  7 emotions Evaluation Activation Emo./Non-Emo.
Full set 69.1% 67.1% 85.4% 81.9%
Reduced set 77.4% 72.5% 88.6% 85.3%
Table 2. Comparing segment lengths (reduced feature sets)
Segment length Recognition accuracy
Whole utterance 77.4%
Word in context 53.2%
500 ms 44.5%
Word 34.1 %

4.2.2. WOZ emotions:

我われは SmartKom コーパスの感情認識システムを作成した[10]_ と同じ方法で評価を行った。 彼らは異なった特徴量を使用しているが、コーパスを通して感情の表現は一貫していて, 抽出物におけるデータ量は同じであるため結果は比較可能である。

我われの結果 ( 表3 <table_3> を参照) は彼らの 彼らの結果と似ているが、 彼らの特徴量は部分的に手動(韻律の特殊性)であり、品詞情報を使用しているのに対し、我われの特徴量セットは完全に自動的に計算している。

明らかに、高度な自動化の結果が不利になることはない。 これは多くの特徴量セットがこれを補償するためであると考えられる。

二つの解析ユニットを比較すると、ここでも、長いユニット(ポーズにより分割されたセグメント)は良い結果になるが、この差は印象的なほどではない。 これは 自発音声発話ではフレーズや語の輪郭があまり明確ではないためであると考えられる。 データセットを減少されたものと全てを利用したものの結果を比較してもその差は大きくはない。 いくつかの場合、減少特徴量セットのパフォーマンスは、フルセットと、同程度または、悪い結果となった。 しかし、特徴量選択は弁別速度を早くすることはできる。

Table 3. Recognition results in % for natural emotions using segments delimited by pauses and words with context as units.
Different granularities of user states Reduced set Full set Reduced set Full set
  Pauses as borders Word with context
joyful strong joyful weak surprised neutral helpless angry weak angry strong 26 25.6 28.4 28
joyful surprised neutral helpless angry 37.5 38.7 31.2 35.7
joyful neutral helpless angry 39 40.6 39.5 36.1
joyful neutral problem 48.3 51.6 44.2 42.4
no problem helpless angry 50.3 51.9 45.9 45.4
no problem problem 68.3 73.3 59.3 59.4
not angry angry 59.9 61.1 59.1 50.5

4.3. Selected features

[1] では、選択された特徴量は疑わしいものは存在しなかった。 一般に、我われは多くのクラスを持つ場合、多くの特長量が必要であるといえる。 演技音声では ピッチに関連する特徴量が主要な役割を果たした。 自発感情にとっては注目される特徴量は MFCCs にいき、低い係数、とくに第一次元が選択された。 ピッチやエネルギーの極値は基本系列より重要であった。 ポーズは演技感情に対して、とくに悲しみの感情ではポーズの割合が多いので, とても重要な特徴量である。 この側面はしかし、実際の感情に対しては、ポーズが起きることがなく、一般化することができない。

5.CONCLUSIONS

結果として、演技音声と実際の音声では要求されるものが全く異なることが示された。 先行研究に対し、演技音声のに対する特徴選択の影響が高く、実際の感情音声に対しより認識が容易になることを発見した。 本文の新規な貢献は演技された感情と自発的な感情に対する選択された特徴量セットの違いを詳細に観察したことである。 演技された感情及び自発感情に対する良い特徴量は重複する部分が少ないことが示された。 演技感情に対してはピッチに関連する特徴量が中心であったのに対し、自発感情ではMFCC (特に低次元) に関連する特徴量が選択された。 これらの違いは自然が感情を認識することを意図する場合、ある手法の初めてのテストであっても演技音声を使用することに意味がないことを示唆する。

最終的に、我われは特徴量の高度な自動化及び、ユニットのセグメント化が不利になることを示すことはできなかったが、 これは我われが選択プロセスの中で与えた特徴量が大き過ぎたことが原因であると考える。

6.REFERENCES

[1](1, 2, 3, 4)
    1. Oudeyer, The production and recognition of Int. emotions in speech: features and algorithms, Journal of Human-Computer Studies, vol. 59, no. 1-2, pp. 157-183, 2003.
[2](1, 2, 3)
  1. Batliner, K. Fischer, R. Huber, J. Spilker, and E. Noth, Speech Communication, vol. 40, pp. 117-143, 2003. “How to find trouble in communication,”
[3](1, 2, 3)
  1. Kustner, R. Tato, T. Kemp, and B. Meffert, “Towards real life applications in emotion recognition,”in ADS Workshop 04, Kloster Irsee, Germany, 2004, pp. 25-35.
[4]
  1. Boersma, “Accurate short-term analysis of the fudamental frequency and the harmonics-to-noise ratio of a sampled sound,” in Proc. of the Institute of Phonetic Sciences, U. of Amsterdam, 1993, pp. 97-110.
[5]
    1. Fink, “Developing HMM-based recognizers with ESMERALDA,” in Lecture notes in Artificial Intelligence, V. Matouˇsek et al., Eds., vol. 1962, pp. 229-234. Springer, Berlin, Heidelberg, 1999.
[6]
    1. Witten and E. Frank, Data Mining: Practical machine learning tools with Java implementations, Morgan Kaufmann, San Francisco, 2000.
[7]
    1. Hall, “Correlation-based feature subset selection for machine learning,” M.S. thesis, U. of Waikato, New Zealand, 1998.
[8]
  1. Burkhardt, Simulation emotionaler Sprechweise mit Sprachsynthesesystemen, Ph.D. thesis, TU Berlin, Germany, 2001.
[9]
  1. Steininger, F. Schiel, O. Dioubina, and S. Raubold,”Development of user-state conventions for the multimodal corpus in SmartKom,” in Proc. Workshop ’Multimodal Resources and Multimodal Systems Evaluation‘ 2002, Las Palmas, 2002, pp. 33-37.
[10]
  1. Batliner, V. Zeißler, C. Frank, J. Adelhardt, R. P. Shi, and E. Noth, “We are not amused but how do you know? User states in a multi-modal dialogue system.,” in Proc. EUROSPEECH 2003, Geneva, 2003, pp. 733-736.